Telegram Group & Telegram Channel
Что такое on-policy и off-policy алгоритмы?

Policy в контексте обучения с подкреплением (reinforcement learning) — это некоторое правило для агента, которым он руководствуется, чтобы выбирать действия в зависимости от текущего состояния среды.

Соответственно, on-policy и off-policy алгоритмы отличаются тем, как они взаимодействуют с policy.

▪️ On-policy алгоритмы
Эти алгоритмы обучаются на данных, собранных исключительно с использованием текущей policy, которую они оптимизируют. Ключевая особенность on-policy подхода в том, что он требует свежих данных, собранных с актуальной версии policy.
Пример: Vanilla Policy Gradient (VPG) — базовый алгоритм, который стал основой для более современных on-policy методов, таких как TRPO и PPO.

▪️ Off-policy алгоритмы
Off-policy алгоритмы обучаются на данных, собранных другой policy, которая может быть полностью независимой от текущей. Это позволяет использовать ранее накопленные данные или данные, собранные случайным образом.
Пример: Deep Deterministic Policy Gradient (DDPG), который совместно обучает Q-функцию и policy. Такие методы используют уравнение Беллмана, чтобы вычислять обновления, независимо от того, как были собраны данные.

#машинное_обучение
#глубокое_обучение
👍2



tg-me.com/ds_interview_lib/694
Create:
Last Update:

Что такое on-policy и off-policy алгоритмы?

Policy в контексте обучения с подкреплением (reinforcement learning) — это некоторое правило для агента, которым он руководствуется, чтобы выбирать действия в зависимости от текущего состояния среды.

Соответственно, on-policy и off-policy алгоритмы отличаются тем, как они взаимодействуют с policy.

▪️ On-policy алгоритмы
Эти алгоритмы обучаются на данных, собранных исключительно с использованием текущей policy, которую они оптимизируют. Ключевая особенность on-policy подхода в том, что он требует свежих данных, собранных с актуальной версии policy.
Пример: Vanilla Policy Gradient (VPG) — базовый алгоритм, который стал основой для более современных on-policy методов, таких как TRPO и PPO.

▪️ Off-policy алгоритмы
Off-policy алгоритмы обучаются на данных, собранных другой policy, которая может быть полностью независимой от текущей. Это позволяет использовать ранее накопленные данные или данные, собранные случайным образом.
Пример: Deep Deterministic Policy Gradient (DDPG), который совместно обучает Q-функцию и policy. Такие методы используют уравнение Беллмана, чтобы вычислять обновления, независимо от того, как были собраны данные.

#машинное_обучение
#глубокое_обучение

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/694

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

In many cases, the content resembled that of the marketplaces found on the dark web, a group of hidden websites that are popular among hackers and accessed using specific anonymising software.“We have recently been witnessing a 100 per cent-plus rise in Telegram usage by cybercriminals,” said Tal Samra, cyber threat analyst at Cyberint.The rise in nefarious activity comes as users flocked to the encrypted chat app earlier this year after changes to the privacy policy of Facebook-owned rival WhatsApp prompted many to seek out alternatives.

What is Telegram Possible Future Strategies?

Cryptoassets enthusiasts use this application for their trade activities, and they may make donations for this cause.If somehow Telegram do run out of money to sustain themselves they will probably introduce some features that will not hinder the rudimentary principle of Telegram but provide users with enhanced and enriched experience. This could be similar to features where characters can be customized in a game which directly do not affect the in-game strategies but add to the experience.

Библиотека собеса по Data Science | вопросы с собеседований from ua


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA